تصحیح خودکار داده‌ها مبتنی بر وابستگی تابعی و سیستم یادگیری مرکب

نویسندگان

  • مهدیه عطاییان تهران - دانشگاه تربیت دبیر شهید رجایی - دانشکده مهندسی کامپیوتر
  • نگین دانشپور تهران - دانشگاه تربیت دبیر شهید رجایی - دانشکده مهندسی کامپیوتر
چکیده مقاله:

صحت داده‌ها یکی از مهم‌ترین ابعاد کیفیت داده‌ها به‌شمارمی‌رود. با توجه به حجم بالای منابع داده‌ای نیاز به روش‌هایی خودکار وجود دارد. در این مقاله راهکاری خودکار برای تصحیح داده‌هایی با انواع داده‌ای متفاوت ارائه ‌شده ‌است. در این راهکار در ابتدا رکوردهایی که احتمالاً حاوی ویژگی خطا است با استفاده از وابستگی تابعی شناسایی‌می‌گردد، بدین‌صورت که رکوردی که به ازای یک وابستگی تابعی با بیش از  از رکوردها در تناقض باشد، مشکوک به خطا است. سپس به ازای هر ویژگی از منبع داده مورد بررسی، سیستم یادگیری مرکب ساخته‌می‌شود. سیستم یادگیری مرکب از سه طبقه‌بند بیز، درخت تصمیم و شبکه عصبی MLP تشکیل‌شده است و دارای استراتژی ترکیب رأی اکثریت است. سیستم یادگیری مرکب به‌وسیله رکوردهای صحیح شناسایی‌شده مورد آموزش قرارداده ‌می‌شود. پس از آموزش طبقه‌بندها، هر ویژگی غلط به‌عنوان کلاس هدف سیستم یادگیری‌مرکب قرارمی‌گیرد و مقداری برای آن پیش‌بینی‌می‌گردد. روش پیشنهادی قادراست چندین خطا در یک رکورد را شناسایی نماید. آزمایش‌ها نشان‌می‌دهد که true negative rate الگوریتم پیشنهادی در بخش تشخیص خطا به‌طور متوسط 93.7% و در بخش تصحیح خطا به‌طور متوسط 90.6% است. هم‌چنین آزمایش‌ها نشان‌می‌دهد که میزان پارامترهای ارزیابی در الگوریتم پیشنهادی در مقایسه با دو الگوریتم مشابه مبتنی بر وابستگی تابعی بهبود داشته است.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

شبکه عصبی فازی خودکار مبتنی بر جمعیت برای یادگیری آنلاین مبتنی بر دانش

در این مقاله، یک سیستم پیوندگرای فازی جدید برای یادگیری آنلاین تدریجی و کشف دانش، به نام شبکه عصبی فازی خودکار مبتنی بر جمعیت (pafunn) با جزئیات نشان داده است. pafunn از طریق یادگیری تدریجی تکامل پیدا می کند. اتصالات و نرون های جدید، بر اساس جمعیت نمونه ها ایجاد می شوند، در حالی که در سیستمی عمل می کنند که مزیت کنترل تعدادی از نرون های درگیر در آن را داشته و منجر به پیچیدگی کمتر شبکه می شوند. ا...

متن کامل

بررسی اثربخشی آموزشی مؤلفه های یادگیری خودگردان مبتنی بر مدل پینتریج، بر خودکار آمدی

این پژوهش با هدف هنجاریابی و بررسی ساختار عاملی مقیاس یادگیری خود تنظیمی به عنوان صلاحیت میان بر نامه ای در بین دانش آموزان دختر و پسر سال اول دبیرستان های دولتی شهرستان مشهد به اجرا در آمد. نمونه ای با حجم ۸۴۰ نفر از دانش آموزان، به روش نمونه گیری خوشه ای چند مرحله ای انتخاب و پرسشنامه مذکور که شامل ۵۲ سؤال و ۱۴ عامل بود با طیف لیکرتی در مقیاس چهار درجه ای در مورد آنها اجرا گردید و نهایتاً ۸۳۳ ...

متن کامل

تصحیح خودکار خطا در درخت بانک نحوی با استفاده از یادگیری ماشینی انتقال محور

The Treebank is one of the most useful resources for supervised or semi-supervised learning in many NLP tasks such as speech recognition, spoken language systems, parsing and machine translation. Treebank can be developded in different ways that could be, generally, categorized in manually and statistical approaches. While the resulted Treebank in each of these methods has the annotation error,...

متن کامل

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

متن کامل

ترکیب خودکار سرویس‌ها مبتنی بر گراف رنگ‌آمیزی

سرویس‌های وب به‌عنوان مؤلفه‌های نرم‌افزاری مستقل توسط ارائه‌دهندگان سرویس بر روی اینترنت منتشر شده و توسط درخواست‌کنندگان سرویس برای رسیدن به اهداف مختلف فراخوانی می‌شوند. با این حال در بسیاری از موارد هیچ سرویسی به‌تنهایی در مخزن سرویس یافت نمی‌شود که بتواند رضایت درخواست‌کننده را برآورده سازد. ترکیب سرویس، مؤلفه‌های جدیدی را با استفاده از یک مدل تعاملی برای سرعت بخشیدن به برنامه‌ها ایجاد می‌ک...

متن کامل

تصحیح خودکار خطا در درخت بانک نحوی با استفاده از یادگیری ماشینی انتقال محور

درخت بانک یکی از پرکاربردترین منابع در به کارگیری روش های یادگیری باسرپرستی و نیمه سرپرستی در سامانه های پردازش زبان های طبیعی مانند ابزارهای شناسایی گفتار، تحلیلگرهای نحوی و نرم افزارهای مترجم ماشینی است. روش های مختلفی جهت تولید درخت بانک وجود دارد که می توان آن ها را به دو طبقه ی اصلی، روش های تولید دستی و روش های تولید خودکار تقسیم کرد. در هر یک از این روش ها، درخت بانک حاصل دارای خطاهایی ه...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 48  شماره 2

صفحات  797- 814

تاریخ انتشار 2018-08-23

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023